Анализ сообществ в социальной сети вконтакте с применением графов¶

Резюме¶

В этой статье мы будем анализировать участников группы вконтакте Ozon Tech с применением теории графов. Для анализа взяты участники сообщества с открытыми профилями.

Структура¶

  • общие характеристики сообщества
  • распределение признаков
  • топ групп
  • выделение популярных участников
  • выделение подгрупп
    • распределение признаков
    • топ групп
  • Самое связное сообщество
  • Послесловие
    • Скрипт сбора данных + ссылка на весь код
    • Что можно сделать еще

Настройка среды¶

Общие характеристики сообщества¶

Представим сообщество вконтакте в виде точек и стрелочек между ними, где точка — это человек, а стрелочка — это подписка. Если два человека дружат, то это двусторонняя стрелочка.

Количество открытых профилей сообщества: 8917
Общее количество связей между участниками: 9594
Среднее количество друзей внутри сообщества: 1.07592239542447
Медианное количество друзей внутри сообщества: 0.0

Компоненты связности - это группы пользователей, которые связаны внутри, но не связаны между собой.

Распределение размеров компонент cсвязности:
количество таких компонент
Кол-во учатников внутри компоненты
1 5376
2 362
3 83
4 28
5 9
6 6
7 2
8 3
12 2
2313 1
Видим, что людей без друзей внутри сообщества 5376
Самая большая компонента включает 2313 участников

Распределение признаков¶

city - город
sex - пол
byear - год рождения
occupation - занятость
occupation_type - тип занятости
relation - отношения
alcohol - отношение к алкоголю 1(резко негативное)-5(резко положительное)
inspired_by - вдохновлен
langs - языки
life_main - главное в жизни
people_main - главное в людях
political - полит. взгляды
religion - религия
smoking - отношение к курению 1(резко негативное)-5(резко положительное)
followers_count - количество подписчиков
first_name - имя
last_name - фамилия
status - статус
main_group_likes - кол-во поставленных лайков в основной группе
got_likes_from_members - кол-во лайков, полученных от участников основной группы
got_likes - общее кол-во полученных лайков

  0%|                                                                                         | 0/2052 [00:00<…
DataPrep Report
DataPrep Report Overview
Variables ≡
city sex byear occupation occupation_type relation alcohol inspired_by langs life_main people_main political religion smoking followers_count first_name last_name status main_group_likes
Interactions Correlations Missing Values

Overview

Dataset Statistics

Number of Variables 19
Number of Rows 8917
Missing Cells 81802
Missing Cells (%) 48.3%
Duplicate Rows 9
Duplicate Rows (%) 0.1%
Total Size in Memory 7.8 MB
Average Row Size in Memory 917.4 B
Variable Types
  • Categorical: 16
  • Numerical: 3

Dataset Insights

city has 2697 (30.25%) missing values Missing
byear has 5228 (58.63%) missing values Missing
occupation has 3084 (34.59%) missing values Missing
occupation_type has 3084 (34.59%) missing values Missing
relation has 4719 (52.92%) missing values Missing
alcohol has 8250 (92.52%) missing values Missing
inspired_by has 8352 (93.66%) missing values Missing
langs has 6143 (68.89%) missing values Missing
life_main has 7854 (88.08%) missing values Missing
people_main has 7801 (87.48%) missing values Missing
political has 8154 (91.44%) missing values Missing
religion has 8377 (93.94%) missing values Missing
smoking has 7827 (87.78%) missing values Missing
followers_count has 112 (1.26%) missing values Missing
status has 120 (1.35%) missing values Missing
byear is skewed Skewed
followers_count is skewed Skewed
main_group_likes is skewed Skewed
city has a high cardinality: 693 distinct values High Cardinality
occupation has a high cardinality: 2512 distinct values High Cardinality
inspired_by has a high cardinality: 487 distinct values High Cardinality
langs has a high cardinality: 237 distinct values High Cardinality
religion has a high cardinality: 165 distinct values High Cardinality
first_name has a high cardinality: 1318 distinct values High Cardinality
last_name has a high cardinality: 6327 distinct values High Cardinality
status has a high cardinality: 3626 distinct values High Cardinality
alcohol has constant length 3 Constant Length
smoking has constant length 3 Constant Length
main_group_likes has 8356 (93.71%) zeros Zeros
  • 1
  • 2
  • 3

Variables


city

categorical

Approximate Distinct Count 693
Approximate Unique (%) 11.1%
Missing 2697
Missing (%) 30.2%
Memory Size 460536
  • The largest value (Moscow) is over 1.93 times larger than the second largest value (Saint Petersburg)

Length

Mean 8.8688
Standard Deviation 3.9555
Median 7
Minimum 0
Maximum 24

Sample

1st row Saint Petersburg
2nd row Moscow
3rd row Saint Petersburg
4th row Saint Petersburg
5th row Luga

Letter

Count 53702
Lowercase Letter 46200
Space Separator 1131
Uppercase Letter 7502
Dash Punctuation 250
Decimal Number 1
  • The largest value (moscow) is over 1.93 times larger than the second largest value (petersburg)

sex

categorical

Approximate Distinct Count 2
Approximate Unique (%) 0.0%
Missing 0
Missing (%) 0.0%
Memory Size 610402
  • The largest value (man) is over 3.41 times larger than the second largest value (woman)

Length

Mean 3.4537
Standard Deviation 0.8377
Median 3
Minimum 3
Maximum 5

Sample

1st row woman
2nd row woman
3rd row man
4th row woman
5th row man

Letter

Count 30797
Lowercase Letter 30797
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The top 2 categories (man, woman) take over 50.0%
  • The largest value (man) is over 3.41 times larger than the second largest value (woman)

byear

numerical

Approximate Distinct Count 60
Approximate Unique (%) 1.6%
Missing 5228
Missing (%) 58.6%
Infinite 0
Infinite (%) 0.0%
Memory Size 59024
Mean 1994.1046
Minimum 1946
Maximum 2009
Zeros 0
Zeros (%) 0.0%
Negatives 0
Negatives (%) 0.0%
  • byear is skewed left (γ1 = -1.2701)

Quantile Statistics

Minimum 1946
5-th Percentile 1977
Q1 1989
Median 1996
Q3 2001
95-th Percentile 2004
Maximum 2009
Range 63
IQR 12

Descriptive Statistics

Mean 1994.1046
Standard Deviation 9.1237
Variance 83.2412
Sum 7.3563e+06
Skewness -1.2701
Kurtosis 2.2433
Coefficient of Variation 0.004575
  • byear is not normally distributed (p-value 1.0165229621422272e-07)
  • byear has 80 outliers

occupation

categorical

Approximate Distinct Count 2512
Approximate Unique (%) 43.1%
Missing 3084
Missing (%) 34.6%
Memory Size 857638

Length

Mean 16.9517
Standard Deviation 13.8762
Median 13
Minimum 1
Maximum 156

Sample

1st row VK Team
2nd row МГТУ им. Баумана
3rd row Skyeng
4th row СПбГУТ им. проф. М...
5th row СПбГУТ им. Бонч-Бр...

Letter

Count 11609
Lowercase Letter 8375
Space Separator 10167
Uppercase Letter 3234
Dash Punctuation 499
Decimal Number 320
  • occupation contains many words: 4057 words

occupation_type

categorical

Approximate Distinct Count 3
Approximate Unique (%) 0.1%
Missing 3084
Missing (%) 34.6%
Memory Size 424047
  • The largest value (university) is over 1.64 times larger than the second largest value (work)

Length

Mean 7.6979
Standard Deviation 2.8939
Median 10
Minimum 4
Maximum 10

Sample

1st row work
2nd row university
3rd row work
4th row work
5th row university

Letter

Count 44902
Lowercase Letter 44902
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The top 2 categories (university, work) take over 50.0%
  • The largest value (university) is over 1.64 times larger than the second largest value (work)

relation

categorical

Approximate Distinct Count 9
Approximate Unique (%) 0.2%
Missing 4719
Missing (%) 52.9%
Memory Size 577440
  • The largest value (не указано) is over 4.86 times larger than the second largest value (женат/замужем)

Length

Mean 11.9505
Standard Deviation 3.3326
Median 10
Minimum 10
Maximum 22

Sample

1st row влюблён/влюблена
2nd row не женат/не замуже...
3rd row женат/замужем
4th row женат/замужем
5th row женат/замужем

Letter

Count 0
Lowercase Letter 0
Space Separator 4034
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0

alcohol

categorical

Approximate Distinct Count 5
Approximate Unique (%) 0.7%
Missing 8250
Missing (%) 92.5%
Memory Size 45356

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 2.0
2nd row 4.0
3rd row 1.0
4th row 4.0
5th row 3.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 1334
  • alcohol has words of constant length

inspired_by

categorical

Approximate Distinct Count 487
Approximate Unique (%) 86.2%
Missing 8352
Missing (%) 93.7%
Memory Size 104704

Length

Mean 25.7841
Standard Deviation 80.682
Median 14
Minimum 1
Maximum 1832

Sample

1st row Музыка, кино, путе...
2nd row там, где звёзды
3rd row Танцы
4th row природа и люди
5th row Марк Аврелий

Letter

Count 1621
Lowercase Letter 1369
Space Separator 1600
Uppercase Letter 252
Dash Punctuation 70
Decimal Number 274
  • inspired_by contains many words: 1198 words

langs

categorical

Approximate Distinct Count 237
Approximate Unique (%) 8.5%
Missing 6143
Missing (%) 68.9%
Memory Size 370010
  • The largest value (Русский) is over 2.88 times larger than the second largest value (Русский,English)

Length

Mean 11.9102
Standard Deviation 15.4697
Median 7
Minimum 2
Maximum 521

Sample

1st row Русский
2nd row Русский,Українська...
3rd row Русский
4th row English
5th row Русский

Letter

Count 9883
Lowercase Letter 8463
Space Separator 93
Uppercase Letter 1420
Dash Punctuation 0
Decimal Number 0
  • The largest value (русский) is over 2.88 times larger than the second largest value (русскийenglish)

life_main

categorical

Approximate Distinct Count 8
Approximate Unique (%) 0.8%
Missing 7854
Missing (%) 88.1%
Memory Size 159371
  • The largest value (саморазвитие) is over 2.06 times larger than the second largest value (семья и дети)

Length

Mean 14.9784
Standard Deviation 4.0968
Median 12
Minimum 12
Maximum 22

Sample

1st row совершенствование ...
2nd row саморазвитие
3rd row саморазвитие
4th row семья и дети
5th row саморазвитие

Letter

Count 0
Lowercase Letter 0
Space Separator 1050
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0

people_main

categorical

Approximate Distinct Count 6
Approximate Unique (%) 0.5%
Missing 7801
Missing (%) 87.5%
Memory Size 180684
  • The largest value (доброта и честность) is over 2.24 times larger than the second largest value (ум и креативность)

Length

Mean 18.2258
Standard Deviation 0.9532
Median 19
Minimum 17
Maximum 19

Sample

1st row доброта и честност...
2nd row юмор и жизнелюбие
3rd row доброта и честност...
4th row доброта и честност...
5th row доброта и честност...

Letter

Count 0
Lowercase Letter 0
Space Separator 2232
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (и) is over 2.15 times larger than the second largest value (доброта)

political

categorical

Approximate Distinct Count 9
Approximate Unique (%) 1.2%
Missing 8154
Missing (%) 91.4%
Memory Size 106853
  • The largest value (умеренные) is over 1.83 times larger than the second largest value (либеральные)

Length

Mean 12.2608
Standard Deviation 2.7696
Median 13
Minimum 9
Maximum 20

Sample

1st row социалистические
2nd row умеренные
3rd row индифферентные
4th row умеренные
5th row индифферентные

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (умеренные) is over 1.83 times larger than the second largest value (либеральные)

religion

categorical

Approximate Distinct Count 165
Approximate Unique (%) 30.6%
Missing 8377
Missing (%) 93.9%
Memory Size 75780
  • The largest value (Православие) is over 2.32 times larger than the second largest value (Светский гуманизм)

Length

Mean 13.3222
Standard Deviation 13.7225
Median 11
Minimum 2
Maximum 220

Sample

1st row крещеный нецерковн...
2nd row Православие
3rd row агностик
4th row главное в жизни эт...
5th row Вера в свои силы

Letter

Count 291
Lowercase Letter 254
Space Separator 356
Uppercase Letter 37
Dash Punctuation 8
Decimal Number 26
  • The largest value (православие) is over 2.3 times larger than the second largest value (гуманизм)

smoking

categorical

Approximate Distinct Count 5
Approximate Unique (%) 0.5%
Missing 7827
Missing (%) 87.8%
Memory Size 74120

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 3.0
2nd row 3.0
3rd row 1.0
4th row 1.0
5th row 1.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 2180
  • smoking has words of constant length

followers_count

numerical

Approximate Distinct Count 1609
Approximate Unique (%) 18.3%
Missing 112
Missing (%) 1.3%
Infinite 0
Infinite (%) 0.0%
Memory Size 140880
Mean 522.3716
Minimum 0
Maximum 76006
Zeros 42
Zeros (%) 0.5%
Negatives 0
Negatives (%) 0.0%
  • followers_count is skewed right (γ1 = 24.0601)

Quantile Statistics

Minimum 0
5-th Percentile 26
Q1 145
Median 271
Q3 486
95-th Percentile 1530.6
Maximum 76006
Range 76006
IQR 341

Descriptive Statistics

Mean 522.3716
Standard Deviation 1387.087
Variance 1.924e+06
Sum 4.5995e+06
Skewness 24.0601
Kurtosis 1076.7423
Coefficient of Variation 2.6554
  • followers_count is not normally distributed (p-value 4.477217777755201e-25)
  • followers_count has 806 outliers

first_name

categorical

Approximate Distinct Count 1318
Approximate Unique (%) 14.8%
Missing 0
Missing (%) 0.0%
Memory Size 633656

Length

Mean 5.9756
Standard Deviation 1.6768
Median 6
Minimum 1
Maximum 28

Sample

1st row Ekaterina
2nd row Olya
3rd row Gleb
4th row Irina
5th row Mikhail

Letter

Count 53181
Lowercase Letter 44068
Space Separator 1
Uppercase Letter 9113
Dash Punctuation 21
Decimal Number 0
  • first_name contains many words: 1316 words

last_name

categorical

Approximate Distinct Count 6327
Approximate Unique (%) 71.0%
Missing 0
Missing (%) 0.0%
Memory Size 650128
  • The largest value (Ivanov) is over 2.09 times larger than the second largest value (Kuznetsov)

Length

Mean 7.8062
Standard Deviation 2.1146
Median 8
Minimum 0
Maximum 32

Sample

1st row Lapanovich
2nd row Pronevich
3rd row Kushedov
4th row Pavlova
5th row Belyakovsky

Letter

Count 69473
Lowercase Letter 60549
Space Separator 1
Uppercase Letter 8924
Dash Punctuation 48
Decimal Number 0
  • last_name contains many words: 6323 words
  • The largest value (ivanov) is over 2.09 times larger than the second largest value (kuznetsov)

status

categorical

Approximate Distinct Count 3626
Approximate Unique (%) 41.2%
Missing 120
Missing (%) 1.3%
Memory Size 1124579
  • The largest value () is over 219.65 times larger than the second largest value (...)

Length

Mean 15.5368
Standard Deviation 28.0828
Median 0
Minimum 0
Maximum 443

Sample

1st row
2nd row Жизненно важный ин...
3rd row Никаких {}
4th row писатель
5th row дагогеддон

Letter

Count 30441
Lowercase Letter 27668
Space Separator 18172
Uppercase Letter 2773
Dash Punctuation 526
Decimal Number 1673
  • The top 2 categories (, ...) take over 50.0%
  • status contains many words: 9203 words

main_group_likes

numerical

Approximate Distinct Count 20
Approximate Unique (%) 0.2%
Missing 0
Missing (%) 0.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 142672
Mean 0.1546
Minimum 0
Maximum 88
Zeros 8356
Zeros (%) 93.7%
Negatives 0
Negatives (%) 0.0%
  • main_group_likes is skewed right (γ1 = 36.1084)

Quantile Statistics

Minimum 0
5-th Percentile 0
Q1 0
Median 0
Q3 0
95-th Percentile 1
Maximum 88
Range 88
IQR 0

Descriptive Statistics

Mean 0.1546
Standard Deviation 1.6436
Variance 2.7014
Sum 1379
Skewness 36.1084
Kurtosis 1643.9528
Coefficient of Variation 10.6279
  • main_group_likes is not normally distributed (p-value 4.278259142931965e-25)
  • main_group_likes has 561 outliers

Interactions

Correlations

Missing Values

Report generated with DataPrep

Топ групп¶

Группы, на которые подписаны наибольшее количество пользователей

кол-во подписанных участников
Название группы
Ozon Tech 8657
Яндекс Образование 3697
Журнал «Код» 3437
Библиотека программиста 3429
Тинькофф Образование 3222
Типичный программист 2804
Яндекс Практикум 2621
ITc | сообщество программистов 2288
VK Team 2175
/dev/null 2121
Selectel 2002
IT's Tinkoff 1903
Physics.Math.Code 1776
Стартапы и бизнес 1663
Наука и Техника 1637
ВКонтакте 1621
Хекслет 1491
Яндекс 1449
VK Education 1448
IT Resume 1430
Программирование / itProger 1422
Figma 1415
Тинькофф 1413
Kaspersky Team 1399
Skillbox: образовательная платформа 1395
CODE BLOG 1362
Хабр Разработка 1361
JavaScript 1355
Data Science 1324
Лентач 1297

Выделение популярных участников¶

Выведем список самых популярных людей внутри сообщества на основе eigenvector_centrality:

first_name occupation followers_count
0 R. VK 1274.0
1 O. VK Education 2351.0
2 K. Университет ИТМО 599.0
3 O. VK Tech 522.0
4 C. NaN 720.0
5 A. VK 462.0
6 A. UEBA.su 8825.0
7 A. VK Team 768.0
8 A. НИУ ВШЭ (ГУ-ВШЭ) 893.0
9 R. ПГНИУ (ПГУ) 277.0
10 I. Группа «Иннотех» 2642.0
11 D. АлтГТУ им. Ползунова 471.0
12 N. Сбер 5911.0
13 A. Belka Digital belka.ai 1276.0
14 N. Самарский региональный центр для одаренных дет... 427.0
15 D. NaN 4365.0
16 A. Газпромбанк 552.0
17 V. Казанский федеральный университет | КФУ 709.0
18 A. Ассоциация банков России 4228.0
19 D. VK 417.0
20 D. VK 2080.0
21 V. Лига клубов СПбГУТ им. проф. М.А. Бонч-Бруевича 795.0
22 A. CrowdStake — инвестиции в инфлюенсеров 1977.0
23 M. VK Cloud 594.0
24 E. cartoons.jpg 5865.0
25 T. Delorum Ages: War of Changes - Сервер Майнкрафт 571.0
26 A. VK Tech 659.0
27 E. JenyTUBEHD 1286.0
28 I. VK NFT HUB 2000.0
29 D. ВКонтакте 1213.0

Выделение подгрупп¶

Для выделения подгрупп возьмём самую большую компоненту. С помощью магии выделяем подгруппы, в которых связь между людьми сильнее по сравнению с остальными людьми.

Плотность графа - количество связей/ количество связей если все со всеми дружат.
Например, если все дружат со всеми, то плотность=1, если никто ни с кем не дружит, плотность=0

Выведем список самых больших подгрупп:

sett размер медианное кол-во друзей плотность
0 {1344002, 19362307, 70638084, 722485260, 44895... 82 4.0 0.073622
1 {400675842, 270366731, 381974539, 318927118, 1... 79 2.0 0.068160
2 {56901889, 124964865, 75565315, 167338115, 103... 39 3.0 0.118084
3 {42457280, 216004, 5832008, 14504777, 6952906,... 29 3.0 0.144089
4 {70957120, 169472256, 179047617, 27092035, 101... 27 2.0 0.153846
5 {368392321, 146469955, 169683845, 244852038, 2... 27 3.0 0.168091
6 {465316677, 137801991, 558190344, 233770043, 2... 22 3.0 0.173160
7 {479642244, 95527176, 142427725, 140728272, 47... 20 4.0 0.215789
8 {19546306, 41404292, 89275141, 1989319, 329848... 20 1.0 0.100000
9 {236820864, 76809601, 173971522, 242521347, 19... 18 1.0 0.153595

Распределение признаков¶

Сравним 5 самых больших подгрупп

DataPrep.EDA Report
Difference Overview
0_subgroup 1_subgroup 2_subgroup 3_subgroup 4_subgroup
Number of Variables 20 20 20 20 20
Number of Rows 82 79 39 29 27
Missing Cells 666 685 324 248 256
Missing Cells (%) 40.6% 43.4% 41.5% 42.8% 47.4%
Duplicate Rows 0 0 0 0 0
Duplicate Rows (%) 0.0% 0.0% 0.0% 0.0% 0.0%
Total Size in Memory 15.5 KB 15.0 KB 7.4 KB 5.8 KB 5.5 KB
Average Row Size in Memory 15.4 KB 14.9 KB 7.4 KB 5.8 KB 5.5 KB
Variable Types
  • Categorical: 18
  • Numerical: 2
  • Categorical: 18
  • Numerical: 2
  • Categorical: 18
  • Numerical: 2
  • Categorical: 18
  • Numerical: 2
  • Categorical: 19
  • Numerical: 1
0_subgroup
1_subgroup
2_subgroup
3_subgroup
4_subgroup

Number of plots per page:

city
sex
byear
occupation
occupation_type
relation
alcohol
inspired_by
langs
life_main
people_main
political
religion
smoking
followers_count
first_name
last_name
status
main_group_likes
subgroup

Топ подписок¶

Теперь посмотрим топ подписок в разных подгруппах

Общих групп: 9 
Общие группы: {'Яндекс Образование', '/dev/null', 'Журнал «Код»', 'Библиотека программиста', 'VK Team', 'Яндекс', 'Яндекс Практикум', 'Тинькофф Образование', 'Ozon Tech'}
0 1 2 3 4
Топ групп\Номер подгруппы
0 Стартапы и бизнес ВКонтакте Типичный программист ВКонтакте Санкт-Петербургский политехнический университет
1 Forbes VK ITc | сообщество программистов VK Mini Apps Питер Зе Греат Мемес
2 РБК VK NFT HUB Grid Dynamics deep vk Молодёжная служба новостей СПбПУ | МСН
3 Фонд «Сколково» VK Lab Афиша. Саратов AvitoTech Лентач
4 Артемий Лебедев Типичный программист Саратов онлайн Стартапы и бизнес Типичный СПбПУ
5 Типичный программист VK Education Словарный запас Типичный программист Цитаты преподавателей СПбПУ
6 Технопарк «Сколково» Школа 21 | School 21 Пикабу VK Lab Reddit
7 Агентство стратегических инициатив Young&&Yandex Типичный Саратов IT's Tinkoff Наука и Техника
8 Минцифры России Ozon Camp ITumor | программисты шутят ВКонтакте с авторами Стартапы и бизнес
9 Тинькофф Журнал ВКонтакте с авторами Английский язык Бекенд ВК JetBrains
10 ФРИИ Росмолодёжь Selectel VK Наука. Политех
11 Минфин России Selectel Luxoft ВКонтакте для бизнеса Polytech Store | Фирменный магазин
12 Figma VK Mini Apps QA Club Сообщество тестировщиков Тестирование ПО VK NFT HUB ИА «Полирама»
13 АНО «Цифровая экономика» Россия — страна возможностей IT's Tinkoff Журнал «Нож» КБ
14 VK IT-стажировки от FutureToday Хабр Разработка Arzamas Wild Mathing
15 Хекслет Олимпиада студентов «Я — профессионал» Haulmont LIVE Волонтёры Политехнического
16 Тинькофф Тинькофф Neoflex Конференция HighLoad++ ПРОФ.plus
17 ВКонтакте для бизнеса VK Design Team SimbirSoft The Village Петербург Интересный Питер
18 Сбер Карьера в Сбере Саратов Life MOLODEC Selectel
19 ВЕДОМОСТИ Твой Ход Lineate VK Музыка Vandrouki | Путешествия почти бесплатно (RU)
20 Школа управления Сколково ВКонтакте для бизнеса IT HR conf - конференции HR API и HR42 VK Designers Фан-клуб Доры в СПбПУ Политех
21 Большие идеи Kaspersky Team Хекслет karpov.courses Литература
22 VK NFT HUB VK Store QA тестирование и котики | Testers LIVE Express MARVEL/DC
23 ВКонтакте VK Чекбэк HR Data Science ВКонтакте
24 Бизнес-секреты Data Science IT-КОТ 9GAG IGM
25 Московская биржа VK Cloud Наука и Техника VK Design Team Подслушано в СПбПУ
26 Коммерсантъ VK Праздники Лепра Podlodka Справочная/ Помогашки СПбПУ Политех
27 Правительство России VK Designers Netflix Лентач Mash | Мэш на Мойке
28 ВКонтакте с авторами Программирование / itProger Кинопоиск Vandrouki | Путешествия почти бесплатно (RU) 68767083
29 Positive Technologies Reddit TechRocks | Программирование и IT новости CodeFest 14. 25-26 мая 2024. Новосибирск Skillbox: образовательная платформа
30 IT's Tinkoff Andy: стажировки для тебя Карьера в Сбере Департамент сутулых собак Рифмы и Панчи
31 VK Cloud karpov.courses Визуальный английский | English VK Pay 209797931
32 Роскосмос Команда Поддержки ВКонтакте Usetech Контесты VK Team KudaGo: Санкт-Петербург
33 Генеральный Директор IT's Tinkoff Читающие Physics.Math.Code День донора СПбПУ
34 MTS AI IT Resume Стартапы и бизнес QA Hard 4ch
35 НТИ 20.35 Мемуары ценителей научных мемов Книги N + 1 Physics.Math.Code
36 Хабр Разработка МФТИ — Физтех Java Авиасейлс Мемуары ценителей научных мемов
37 Русский маркетинг Технопарк «Сколково» JavaScript уволено Как тебя зовут
38 Forbes. Идеи для бизнеса VK Музыка МХК Just Before Crash 165862616
39 Карьера в Сбере Хакатоны | Russian Hackers Шедевры рекламы Команда Поддержки ВКонтакте Тинькофф
40 Банк России Data Science / Machine Learning / AI / Big Data Reddit The Brown Room $$$ DANK MEMES $$$ AYY LMAO $$$

Сравним между собой 1 и 3 подгруппы

Общих групп: 24 
Общие группы: {'Типичный программист', 'Библиотека программиста', 'Команда Поддержки ВКонтакте', 'VK Музыка', 'ВКонтакте для бизнеса', 'VK', 'VK Team', 'Яндекс Практикум', 'Тинькофф Образование', 'karpov.courses', 'ВКонтакте', 'VK Lab', 'Яндекс Образование', 'Журнал «Код»', 'Яндекс', 'VK Design Team', 'Ozon Tech', 'ВКонтакте с авторами', 'VK Designers', '/dev/null', 'VK NFT HUB', 'Data Science', "IT's Tinkoff", 'VK Mini Apps'}
1 3
Топ групп\Номер подгруппы
0 VK Education deep vk
1 Школа 21 | School 21 AvitoTech
2 Young&&Yandex Стартапы и бизнес
3 Ozon Camp Бекенд ВК
4 Росмолодёжь Журнал «Нож»
5 Selectel Arzamas
6 Россия — страна возможностей LIVE
7 IT-стажировки от FutureToday Конференция HighLoad++
8 Олимпиада студентов «Я — профессионал» The Village Петербург
9 Тинькофф MOLODEC
10 Карьера в Сбере LIVE Express
11 Твой Ход 9GAG
12 Kaspersky Team Podlodka
13 VK Store Лентач
14 VK Чекбэк Vandrouki | Путешествия почти бесплатно (RU)
15 VK Cloud CodeFest 14. 25-26 мая 2024. Новосибирск
16 VK Праздники Департамент сутулых собак
17 Программирование / itProger VK Pay
18 Reddit Контесты VK Team
19 Andy: стажировки для тебя Physics.Math.Code
20 IT Resume QA Hard
21 Мемуары ценителей научных мемов N + 1
22 МФТИ — Физтех Авиасейлс
23 Технопарк «Сколково» уволено
24 Хакатоны | Russian Hackers Just Before Crash
25 Data Science / Machine Learning / AI / Big Data The Brown Room

Самое связное сообщество¶

Плотность графа: 0.21578947368421053

Давайте посмотрим на какие группы они подписаны:

кол-во
Название группы
Ozon Tech 20
ITIS request 15
Яндекс Образование 15
Тинькофф Образование 14
153470393 13
VK Team 13
Яндекс 11
Яндекс Практикум 11
Журнал «Код» 10
Библиотека программиста 10
Казанский мемный университет 9
Цитаты преподавателей КФУ 9
Казань | Казань. Куда пойти? 9
SimbirSoft 8
VK Cloud 8
Сортируй 8
196049566 7
Physics.Math.Code 7
Школа 21 | School 21 7
karpov.courses 7
Andy: стажировки для тебя 7
198540649 7
ITc | сообщество программистов 7
JetBrains 7
razinkov.ai 7
IT's Tinkoff 7
Наука и Техника 6
Профком студентов КФУ 6
/dev/null 6
Selectel 6
Мемуары ценителей научных мемов 6
ВКонтакте 6
Секреты Деревни Универсиады 6
Хакатоны | Russian Hackers 6
206252841 6

Послесловие¶

Скрипт сбора данных - https://github.com/kan5/vk_parsing_analisys¶

С помощью данного скрипта можно спарсить сообщество в 25к примерно за неделю, 20к будут с открытыми профилями. Для работы скрипта нужно ссылка на группу вк. Скрипт соберет информацию об участниках. Это может быть и сообщество, и мероприятие.
Какие данные мы получаем:

  • основную информацию об участниках сообщества: пол, имя, город, дата рождения, университет, место работы и т.д. (здесь много пропусков, т.к. не все указывают все, но например город есть почти у всех)
  • кто с кем дружит, кто на кого подписан
  • подписки участников на группы, общую информацию о топ-n группах(тематика, название...)
  • последние 100 постов участников, лайки на них
  • последние 100 постов сообщества вк, лайки к ним

Что можно сделать еще¶

  • разбить тексты постов людей на кластеры и посмотреть самы популярные, самые популярные внутри сообщества(инструменты: carrot2, rubert + sklearn)
  • найти тональность постов(положительная, нейтральная, негативная), посмотреть аггрегированную тональность кластеров текстов, сравнить все это между несколькими подгруппами людей
  • выбрать другой алгоритм разбиения участников на подгруппы, который сможет учитвать не только связи между участниками, но и другими характеристиками(node2vec + sklearn), или просто другой алгоритм(в посте испольлзуется louvain, можно применить Leiden, Walktrap и еще десятки из библиотеки cdlib)
  • сделать предсказание ребер на основе общих друзей например, 2 учаснтика сообщества не дружат между собой, но у них 30 общих друзей, можно посчитать вероятность того, что они дружат и положить это значение в вес ребра
  • сделать граф, основанный на лайках, а не дружбе. Может даже совместить, еще и вк группы засунуть, но интерпретировать будет сложнее.
  • собрать информацию о группах не по подпискам а по лайкам, но это займет времени в десятки раз больше, вероятно